CATEGORII DOCUMENTE |
Bulgara | Ceha slovaca | Croata | Engleza | Estona | Finlandeza | Franceza |
Germana | Italiana | Letona | Lituaniana | Maghiara | Olandeza | Poloneza |
Sarba | Slovena | Spaniola | Suedeza | Turca | Ucraineana |
DOCUMENTE SIMILARE |
|
Moteurs de recherche
Faculté de Sociologie et d’Assistence Sociale
Master : Communication, société et médias
Un moteur de recherche est un logiciel permettant de retrouver des ressources (pages web, forums Usenet, images, vidéo, etc.) associées à des mots quelconques.
Certains sites web offrent un moteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le site lui-même.
Outil de recherche sur le web constitué de « robots », encore appelés spiders, crawlers ou agents qui parcourent les sites à intervalles réguliers et de façon automatique (sans intervention humaine, ce qui les distingue des annuaires) pour découvrir de nouvelles adresses (URL). Ils suivent les liens hypertextes (qui relient les pages les unes aux autres) rencontrés sur chaque page atteinte. Chaque page identifiée est alors indexée dans une base de données, accessible ensuite par les internautes à partir de mots-clés.
Par abus de langage, on appelle également moteurs de recherche :
des sites web proposant des annuaires de sites web : dans ce cas, ce sont des ressources humaines qui répertorient et classifient des sites web jugés dignes d'intérêt et non des robots d'indexation — on peut citer par exemple Voilà et Yahoo!, etc. ;
des logiciels installés sur un ordinateur personnel : ce sont des moteurs dits desktop qui combinent la recherche parmi les fichiers stockés sur le PC et la recherche parmi les sites web — on peut citer par exemple Google Desktop et Copernic Desktop Search, etc.
Selon une étude du cabinet Comscore réalisée en août 2007 les principaux moteurs de recherche sont :
Google (environ 60%[réf. nécessaire] des 61 milliards de recherches sur internet)
Exalead, moteur de recherche français de nouvelle génération
MozDex, moteur de recherche libre
Yahoo (8,5 milliards de recherches[réf. nécessaire], soit 14% du total)
Live Search (Microsoft) (2,1 milliards de recherches[réf. nécessaire], 3,4%)
Baidu, 'le Google chinois' qui monte en puissance (3,3 milliards de requêtes[réf. nécessaire], soit 5,4% du total),
Naver, moteur de recherche coréen du groupe NHN (2 milliards de recherches[réf. nécessaire]).
Ask.com
Voila
Sharelook moteur de recherche, entre autres intégré dans les Lycos
Wikia (moteur de recherche sur les logiciels libres)
guruji , moteur de recherche indien
On trouve également des métamoteurs, c'est-à-dire des sites web où une même recherche est lancée simultanément sur plusieurs moteurs de recherche (les résultats étant ensuite fusionnés pour être présentés à l'internaute) — on peut citer Mamma, Kartoo, Seek.fr, etc.
Le métamoteur de recherche KartOO fournit une représentation cartographique des résultats de la recherche. Il restitue les informations dans leur contexte de façon à permettre de se rapprocher spatialement de ce que l'on cherche, ainsi que des graphes sémantiques (non visibles sur la figure, qui apparaissent lorsque le pointeur s'approche d'un sujet).
KartOO utilise la technologie Flash et nécessite donc un plugin pour fonctionner.
Plus récemment, on trouve également des annuaires qui exploitent des systèmes de folksonomie à base de tags (ou étiquettes) positionnés par les internautes.
Un annuaire Web, répertoire Web, annuaire Internet ou répertoire Internet est un site Web proposant une liste classée de sites Web.
Le classement se fait typiquement dans une arborescence de catégories, censée couvrir tout ou partie des centres d'intérêt des visiteurs. Chaque catégorie contient :
des sous-catégories concernant des aspects plus pointus d'un sujet donné ;
des hyperliens vers les sites agrémentés d'une description.
Le fonctionnement d'un moteur de recherche se décompose en trois étapes principales.
L'exploration ou crawl : le web est systématiquement exploré par un robot d'indexation suivant récursivement tous les hyperliens qu'il trouve et récupérant les ressources jugées intéressantes. L'exploration est lancée depuis une ressource pivot, comme une page d'annuaire web. Un moteur de recherche est d'abord un outil d'indexation, c'est à dire qu'il dispose d'une technologie de collecte de documents à distance sur les sites web, via un outil que l'on appelle robot ou bot. Un robot d'indexation dispose de sa propre signature (comme chaque navigateur web). Googlebot est le user agent (signature) du crawler de Google
L'indexation des ressources récupérées consiste à extraire les mots considérés comme significatifs (pratiquement tous) correspondant à chaque ressource. Les mots extraits sont enregistrés dans une base de données organisée comme un gigantesque dictionnaire inverse ou, plus exactement, comme l'index terminologique d'un ouvrage, qui permet de retrouver rapidement dans quel chapitre de l'ouvrage se situe un terme significatif donné. Les termes non significatifs s'appellent des mots vides.
La recherche correspond à la partie requêtes du moteur, qui restitue les résultats. Un algorithme gardé secret est généralement appliqué pour donner un poids variable aux correspondances, afin de pouvoir présenter les résultats des recherches par ordre de pertinence supposée. L'algorithme tient généralement compte du contexte du mot clé (titre, paragraphe, hyperlien) et de la ressource (ressources liées, popularité du site).
Afin d'optimiser les moteurs de recherche, les webmestres insérent des métaéléments (métatags) dans les pages web, dans l'en-tête HTML (head). Ces informations permettent d'optimiser les recherches d'information sur les sites web.
L'optimisation pour les moteurs de recherche, appelé aussi SEO (de l'anglais Search engine optimization) est un ensemble de techniques visant à favoriser la compréhension de la thématique et du contenu d'une ou de l'ensemble des pages d'un site web par les moteurs de recherche. Ces techniques visent donc à apporter un maximum d'informations concernant le contenu d'une page web aux robots d'indexation des moteurs de recherche.
L'objectif de ce procédé est d'orienter le positionnement d'une page web dans les résultats de recherche des moteurs sur des mots-clés correspondant aux thèmes principaux du site. On considère généralement que le positionnement d'un site est bon lorsqu'il est positionné (classé) dans l'une des dix premières réponses d'une recherche sur des mots-clés correspondant précisément à sa thématique.
Les sites dont la recherche est le principal service se financent par la vente de technologie et de publicité.
Le financement par la publicité consiste à présenter des publicités correspondant aux mots recherchés par le visiteur. L'annonceur achète des mots-clés : par exemple une agence de voyage peut acheter des mots-clés comme « vacances », « hôtel » et « plage » ou « Cannes », « Antibes » et « Nice » si elle est spécialisée dans cette région. Cet achat permet d'obtenir un référencement dit 'référencement payant' à distinguer du référencement dit 'référencement naturel'.
Le moteur de recherche peut afficher la publicité de deux manières : en encart séparé ou en l'intégrant aux résultats de la recherche. Pour le visiteur, l'encart séparé se présente comme une publicité classique. L'intégration aux résultats se fait en revanche au détriment de la pertinence des résultats et peut avoir des retombées négatives sur la qualité perçue du moteur. De ce fait, tous les moteurs ne vendent pas de placement dans les résultats.
Les moteurs de recherche constituent un enjeu économique. La valeur boursière de Google, principal moteur de recherche, est de 165 milliards d'euros en janvier 2008.
L'importance des enjeux économiques a généré des techniques de détournement malhonnêtes des moteurs de recherche pour obtenir des référencements 'naturels', le spamdexing.
Les deux techniques les plus pratiquées de spamdexing sont :
Le cloaking, qui est une technique permettant de fournir une page différente aux moteurs de recherche de celle visible par un internaute.
Les sites miroirs, qui sont des copies exactes d'un site internet mais sous une autre adresse.
Spamdexing est un néologisme anglais composé du substantif spam et du suffixe dexing pris sur le terme indexing signifiant référencement. En français, on traduit spamdexing par référencement abusif.
C'est un ensemble de techniques consistant à tromper les moteurs de recherche sur la qualité d'une page ou d'un site afin d'obtenir, pour un mot-clef donné, un bon classement dans les résultats des moteurs (de préférence dans les tous premiers résultats, car les utilisateurs vont rarement au-delà de la première page qui, pour les principaux moteurs, ne comprend par défaut que dix adresses). Elle est parfois sévèrement punie par les moteurs, même s'il n'y a pas de code de conduite précis pour les référenceurs (il est parfois difficile de distinguer le référencement abusif de la SEO, l'optimisation « honnête »). Les techniques habituelles de référencement abusif consistent par exemple à truffer une page satellite de listes de mots-clefs (pour attirer les utilisateurs de moteurs qui font une recherche sur ces mots), ou à créer des dizaines de sites qui pointent les uns vers les autres (link farms ou pépinières de liens) pour améliorer leur classement dans les moteurs qui jugent la qualité d'une page en fonction du nombre de liens pointant vers elle.
En principe, les moteurs de recherche classent les résultats selon la qualité des pages et leur pertinence par rapport à la requête ; mais les moteurs actuels (s'opposant ainsi aux annuaires, produits par des humains, qui refusent les sites de qualité insuffisante) tentent d'estimer la qualité et la pertinence des pages par des procédés automatiques, dont les principes sont connus, dans leurs grandes lignes, par les polluposteurs et les optimiseurs de sites:
une page est supposée de bonne qualité si un grand nombre de liens externes pointent vers elle (quand un concepteur de page web place un lien vers une page, il est ainsi censé ' voter ' pour cette page); il est facile de créer plusieurs sites qui pointent vers le site qu'on veut promouvoir (ou bien d'échanger des liens avec des sites amis, gérés par d'autres personnes. C'est le 'netlinking', littéralement 'Mise en liens du réseau', communément appelé 'Echange de liens').
une page est supposée pertinente, en réponse à une requête donnée, si elle contient beaucoup de mots présents dans la requête
les différents mots de la page obtiennent un poids plus important selon leur emplacement (par exemple, si l'expression ' vente de voitures' figure dans le titre, la page est très probablement consacrée à ce sujet)
les moteurs tiennent également compte des mots présents dans l'adresse de la page (ce qui explique qu'on trouve parfois des URL longues, avec des répétitions de mots, comme www.exemple.com/voyages-pas-chers/voyage-en-chine/voyage-en-chine.html)
Les techniques de référencement évoluent dans le temps et s'adaptent aux moteurs. Une nouvelle technique voit le jour: la 'saturation par des intégrations multiples'. Le principe est le suivant: le titulaire du site à promouvoir propose son contenu à une série de partenaires qui ont un nom de domaine avec un pagerank élevé et un nombre de pages élevé, ce qui facilitera leur ascension dans les résultats. Exemple: www.site-du-spamdexeur.com propose le contenu. Puis, on retrouve le même contenu sur https://mot-clé.partenaire.com, https://mot-clé.partenaire2.com, etc. En résulte une saturation de la page de résultats des moteurs de recherche. On peut ainsi à obtenir 80% des résultats de recherche affichés en première page par les moteurs de recherche. Comme la plupart des clics se font sur la première page de résultats d'une requête, ils s'assurent ainsi un maximum de visibilité et évincent leurs concurrents.
Le référencement abusif entre en totale contradiction avec la loi sur les pratiques du commerce. De plus il s'apparente à de la fraude informatique puisque le but est de détourner un processus informatique automatisé de son but initial et ce dans un but d'enrichissement personnel.
Les techniques les plus souvent condamnées sont les suivantes : le fait de répéter abusivement des mots clefs dans le contenu d'un site Web, de créer artificiellement des liens afin d'augmenter son indice de popularité, ou encore de créer des pages spécifiques à chaque robot, et invisibles pour les utilisateurs (cloacking). La sanction prévue dans ces conditions générales est le plus souvent le déréférencement du site, inscrit alors sur une liste noire, ou 'blacklist'. Quand l'on sait l'importance du référencement pour la visibilité, et la viabilité même d'un site, le ' blacklistage' apparait comme une sanction hautement dissuasive.
Sur le plan juridique, le déréférencement présente en outre une réelle valeur juridique. Celle-ci peut avoir un fondement contractuel, ou extra-contractuel. La première hypothèse correspond à celle des webmasters qui accepteraient les conditions générales d'un moteur. Dans ce cas, la sanction apparait difficilement contestable.
Mais le plus souvent, le spamdexing est pratiqué en dehors de toute acceptation de contrat. Les moteurs de recherche n'en sont pas néanmoins démunis, et peuvent invoquer les principes généraux de notre droit : Le spamdexing leur créant un préjudice, les moteurs sont en effet parfaitement libres de contester, et d'exclure les sites qui ne correspondent pas à leurs critères éditoriaux. Ce droit au déréférencement peut être rapproché de la sanction appliquée par les fournisseurs d'accès qui, pour lutter contre le spamming, ' coupent ' l'accès aux spammeurs.
Sur le fondement du droit commun, les moteurs pourraient également demander la réparation de leur préjudice par la condamnation de l'auteur du spamdexing au paiement de dommages et intérêts. Enfin, dans la mesure où le spamdexing fausse les résultats des moteurs de recherche, et que ces derniers constituent de véritables systèmes de traitement automatisé de données (STAD), l'infraction pénale d'atteinte frauduleuse à un STAD (articles 323-1 et s. du Code Pénal ) pourrait également être appliquée. Le fait d'entraver ou de fausser le fonctionnement d'un système de traitement automatisé de données est puni de trois ans d'emprisonnement, et de 45000 euros d'amende.
Les moteurs de recherche disposent donc d'un arsenal juridique important pour lutter contre les auteurs de spamdexing.
Les utilisateurs de moteur de recherche sont les secondes victimes du spamdexing. Le plus souvent, le référencement abusif sert à promouvoir un site marchand. En cela, il constitue un moyen de publicité.
L'utilisateur du moteur peut alors croire que le site bien classé est pertinent, qu'il bénéficie d'une bonne popularité, et qu'il offre des produits, ou des services de qualité. En faussant les résultats des moteurs, le spamdexing trompe ainsi le public, consommateur de sites marchands.
Il en résulte que l'auteur du spamdexing s'expose à l'action des consommateurs, sur le fondement de la publicité trompeuse. La peine encourue est de deux ans d'emprisonnement, et une amende de 37.500 euros.
Enfin, le spamdexing est susceptible de créer un préjudice à l'égard des titulaires de sites web concurrents. Le référencement abusif peut permettre en effet de privilégier la position d'un site par rapport à celui d'un concurrent, et détourner une clientèle qui devrait en principe lui être attribuée. De par son caractère déloyal, les titulaires de sites concurrents pourraient ainsi effectuer une action en concurrence déloyale.
Il se pourrait également que le titulaire du site spamdexé soit lui-même victime de cette pratique. Le référencement est en effet, le plus souvent confié à un professionnel. Le marché du référencement étant de plus en plus concurrentiel, certains référenceurs n'hésitent pas à recourir au spamdexing pour offrir les meilleurs résultats possibles à leurs clients. Ils exposent ainsi leurs clients non seulement à ce que leur site soit définitivement déréférencé des moteurs, mais également à des sanctions civiles, ou pénales.
Par opposition aux techniques de référencement dites abusives, certaines personnes avancent l'idée d'un référencement 'éthique' censé reposer sur un code déontologique. Divers sites, ou association de référenceurs, se sont avancés à proposer leur vision d'un code déontologique en matière de marketing des moteurs de recherche. Bien entendu ces préceptes n'ont aucune force de loi, varient d'une appréciation individuelle à l'autre, et n'engagent que ceux qui veulent bien se reconnaitre dans de tels modèles 'éthiques'. Ces même codes d'éthique sont rédigés par intimidation des moteurs de recherche. Il est cependant étrange de constater que le moteur de recherche qui occupe 90% de part de marché adopte des positions diverses à l'égard du spamdexing. Tantôt il le tolère en l'interdisant, tantôt il réprimande lourdement ( blacklisting de l'index ) sans prévenir ceux qui y ont recours Ces actions s'apparentent en quelques sorte à un abus de position dominante car l'acteur en position dominante fausse le jeu de la concurrence.
Comme conclusion, on peut citer les mots du Friedman qui a dit que jusqu’au milieu de ce siècle les moteurs de recherche seront capables à faciliter l’accesibilité de l’information en réseau tout le temps, parout, pour tous sur n’importe quel sujet.
Stefanescu, Poliana – IT - Tehnologia Informatiei
https://fr.wikipedia.org
https://www.journaldunet.com/juridique
https://www.lesmoteursderecherche.com
https://fr.wikipedia.org/wiki/Optimisation_pour_les_moteurs_de_recherche
https://www.referencement-2000.com
Politica de confidentialitate | Termeni si conditii de utilizare |
Vizualizari: 724
Importanta:
Termeni si conditii de utilizare | Contact
© SCRIGROUP 2024 . All rights reserved